查看原文
其他

洞察谜题 : 用简单的数学模型探索复杂的因果关系

Pradeep Mutalik 集智俱乐部 2019-04-07


编译:集智翻译组

来源:quantamagazine.org

原题:The Slippery Math of Causation



我们经常听到如下警告:“相关关系并不意味着因果关系”。那么因果关系到底是什么呢?


与具有特定数学意义的相关关系不同,因果关系是哲学家数千年来一直在辩论的一个难以明确的概念。我们直觉或者先入为主的认为因果关系就意味着是什么导致了事件的发生。因果关系的一个常识性的定义,可以说就是一种将一个先发生的事件(原因)与另一件事(结果)关联起来的关系。这看起来是合理的,虽然它仅在原因是单一因素,且关联关系清晰时才有用,但是现实绝非如此简单。



1.相互依赖的多重因素


虽然我们倾向于认为一件事情的发生是由一个主要原因引起的,但是在自然界和科学中几乎总是有多重因素


例如,我们可能会将森林大火归咎于不小心抛出的烟头,但是通往森林的草地,植被的干燥程度,风向等等呢?所有这些因素必须同时满足才能着火呀。尽管许多扔掉的烟头并不会引发火灾,但我们还是将火灾归咎于这种人类行为,而忽视了其他因素,例如树枝摩擦或雷击引起的火花,或者未能修剪通往森林的草地等疏忽行为。

我们倾向于注意那些可以被操纵的因素:比如我们忽视风向,因为它不是我们可以控制的东西。然而,科学的、不完整的、直觉的因果关系模型在实践中非常有用,并且能在原因明确时帮助我们执行补救措施。事实上,人工智能先驱Judea Pearl写了一本新书,就是关于为什么有必要向智能机器传授因果关系的。


因果关系与可操作度:

https://plato.stanford.edu/entries/causation-mani/

Judea Pearl  新书《The Book of Why》

贝叶斯网网络之父:如何教会机器理解?(点击即可查看)


 然而,明确定义的原因可能不会存在。复杂的、相互依赖的多因素原因常常出现在自然界中,因此也出现在科学领域中。大多数科学学科都以简化的方式去关注因果关系的不同方面。物理学家可能会谈论因果影响无法比光速传播的更快,而进化生物学家可能会讨论近似的和根本的原因。但是这种简单的情况很少见,特别是在生物学和所谓的“软”科学中。在遗传学领域,Veronique Greenwood最近在Quanta的一篇文章中描述了基因的交织效应,其中就强调了因果关系的复杂性和多因素性质。


进化生物学家讨论传送门:

https://askabiologist.asu.edu/why-vs-how-biology

基因的交织效应:

细胞需要多少基因?一个都不能少!(点击即可查看)



2.探索因果关系的常用方法


了解因果关系的一个著名方法是将其分为两种类型:必要性充分性


必要性与充分性:

http://philosophy.wisc.edu/hausman/341/Skill/nec-suf.htm

其他原因贡献的分析:

https://www.tandfonline.com/doi/abs/10.1080/00325481.1979.11715231?journalCode=ipgm20


除非事件A发生,否则事件B不会发生。那么A是B的必要原因。如果事件A的发生意味着事件B的发生,那么A是B的充分原因。请注意该定义是如何为其他原因留下空间:虽然事件A是一个必要原因,但是可能还需要其他原因的贡献才能使得事件B发生。同样,事件A也可能是充分非必要原因,事件C也可能导致事件B的发生。

除非事件A发生,否则事件B不会发生。



3.探索多因素因果关系的新方法


寻求一个清晰而全面的因果关系理论很可能是一个哲学上的妄想。然而,正如《Insights》读者所知道的,我们的理念是无论多么复杂的学科,都可以通过谜题来探索。


因此,让我们使用一些简化的数学模型探索多因素的因果关系吧,这里我们仅考虑三个诱发因素,并忽略这些因素在时间尺度上的相互作用。


考虑以下情景,有三个因素abc,它们是取值介于0和2之间的实变量。这三个因素相互作用来确定隐藏因子d的取值。如果d的值位于某特定窗口中,那么某特定事件发生(Y)。否则该事件不会发生(N)。


难题1

考虑三个因果关系模型:

  1. abc之间是简单的线性相互作用(其中d的值是abc与其各自的非零常系数乘积之和)。

  2. “网球发球(tennis serve)”模型,其中abc分别为击球的高度(height),垂直和侧向角度(vertical and lateral angle ),d是球在球场上落地的位置。

  3. 遗传模型,abc是基因产物,其中两个基因以乘积相互作用形成中间产物,再与第三基因线性相互作用,最终确定d的浓度。


通常,d所属的能引发目标事件的窗口大小可以任意设置,但必须小于d值的总范围的二十分之一,因为abc在它们的极值之间变化。


所描述的三种模型中的哪一种只有在abc都大于1或者都小于等于1时才允许目标事件发生?你能想出一种abc相互作用的方式,使其自然而然出现这种结果吗?


上述结果可以用下表表示。表格中的“Y”表示目标事件在abc所属范围的子范围内可能发生;“N”表示不能发生。



难题2

每个模型中可以显示“Y”的单元格的最大数量是多少?


难题3

上述表格包含的256种可能Y-N模式中,哪个模型可以实现最多的模式?它可以全部实现吗?

当然了,这些因果关系模型非常简单,但希望它们能够显示多因素因果关系在现实世界中的复杂程度。当这种情况发生时,我们过于简单的寻找单一原因可能导致我们编造虚假原因。欢迎读者朋友给出你们的想法。



翻译:史文彬

审校:高飞

编辑:王怡蔺

原文:

https://www.quantamagazine.org/the-math-of-causation-puzzle-20180530/




推荐阅读


贝叶斯网络之父:如何真正教会机器理解

细胞需要多少基因?一个都不能少!

计算社会科学时代的来临 

论文解读:复杂网络的多尺度动态嵌入技术

加入集智,一起复杂!集智俱乐部团队招新啦!




集智QQ群|292641157

商务合作及投稿转载|swarma@swarma.org


◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存